上個月的某日,半夜被值班同仁叫起來上廁所,說batch執行作業失敗,但系統是活的。只是連線作業速度變得很慢很慢呢?結果,從遠端telnet的登錄動作,居然超過10分鐘!每下個指令,都比蝸牛爬樹還慢,幾乎跟當機沒兩樣!心想,這下子代誌大條,這樣根本無法知道系統到底發生什麼事?當然馬上殺到機房是最簡單又直接的方式,不過還好先以Sun的ALOM連線方式,登到主控台畫面,看到了,它重覆出現的訊息是:
Sep 29 02:53:08 apsvr01 scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2/sd@0,0 (sd0):
Sep 29 02:53:08 apsvr01 disk not responding to selection
以下是處理的結果。
當時判斷已無法進行任何系統作業,只好報告主管,並請示准予強迫關機。先在心中祈禱天神保佑,然後以ALOM進行遠端將系統abort,然後將系統重開,帶到single user mode,逐一進行檔案系統修復(如 fsck -y /dev/dsk/c1t0d0s0),然後再開啟到multi user mode,幸運的是,作業系統開啟正常,然後在將相關的應用程式開起來,重新執行batch jobs。
不過,這個訊息disk not responding to selection 似乎是指該硬碟壞了吧?怎麼還可以運作呢?後來在/var/adm/messages查看到較多的訊息:
Sep 29 02:54:12 apsvr01 scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2 (glm0):
Sep 29 02:54:12 apsvr01 Disconnected tagged cmd(s) (2) timeout for Target 0.0
Sep 29 02:54:12 apsvr01 genunix: [ID 408822 kern.info] NOTICE: glm0: fault detected in device; service still available
Sep 29 02:54:12 apsvr01 genunix: [ID 611667 kern.info] NOTICE: glm0: Disconnected tagged cmd(s) (2) timeout for Target 0.0
Sep 29 02:54:12 apsvr01 glm: [ID 401478 kern.warning] WARNING: ID[SUNWpd.glm.cmd_timeout.6018]
Sep 29 02:54:13 apsvr01 scsi: [ID 107833 kern.warning] WARNING: /pci@1c,600000/scsi@2 (glm0):
Sep 29 02:54:13 apsvr01 got SCSI bus reset
根據資料顯示這通常是需要做 firmware upgrade,不過因為老板為省錢,並沒有續簽維護合約,所以也沒有辦法去下載跟執行這個作業。因此本以為是硬碟必須更換,要買per call的服務的,但因為到現在還跑得好好的,就只好再撐一陣子囉。
比較不解的是為何原來跑的好好的,不會有這些訊息,卻會要求更新 firmware 而出現這些訊息呢?硬碟若真的壞掉(壞軌?或其他什麼問題?)所出現的訊息與這個問題的比較下,是不是有什麼好的辨識特徵來區別呢?以前的sparc中硬碟雖小小的,是不大容易壞,反而是外接的 SCSI 硬碟常會有類似 reset, timeout 等不詳的問題發生;如果剛好要執行的程式是那外掛硬碟,就真的是龜速在跑,所以只能關掉一陣子再開,有時又可撐比較久才又有此問題,這的確是蠻令人困擾的問題…
我覺得好像不是硬碟有問題,反而有可能是其他連結的device有狀況,搞不好是SCSI controller有問題,現在每天都提心吊膽的,老實說,現在只能加強觀察,簽維護合約我是會比較輕鬆,只是他們大概只會更換硬碟,然後我得負責把資料重倒回去,真正的原因,恐怕也查不出來吧? 因為在保固期間曾零星幾次的問題,結果都是直接換硬體,至於root cause,都是目前看不出來,等下次發生同樣狀況才能再看! 大概是我們遇到的經銷商不'淑'(熟)吧! 還是老板殺價太兇,所以服務就...??
我的狀況還ok 馬上dump 一顆硬碟來用
Oct 18 21:14:56 server unix: WARNING: /pci@1f,4000/scsi@3,1 (glm1):
Oct 18 21:14:56 server Disconnected command timeout for Target 6.0
Oct 18 21:14:56 server unix: WARNING: ID[SUNWpd.glm.cmd_timeout.6016]